Apriori Algorithm এবং Frequent Itemsets

Machine Learning - মেশিন লার্নিং (Machine Learning) - Association Rule Learning
457

Apriori Algorithm একটি জনপ্রিয় অ্যালগরিদম যা Association Rule Learning বা Market Basket Analysis-এ ব্যবহৃত হয়। এটি মূলত ব্যবহারকারীর আগ্রহে থাকা সম্পর্ক বা নিয়ম বের করার জন্য ব্যবহৃত হয়, যা একটি ডেটাসেটের মধ্যে নির্দিষ্ট আইটেমগুলির মধ্যে সম্পর্কের ভিত্তিতে চিহ্নিত করা হয়। উদাহরণস্বরূপ, এটি সনাক্ত করতে পারে যে গ্রাহকরা যখন "ব্রেড" কিনে, তখন তারা "বাটার" কেনার সম্ভাবনা বেশি থাকে।

এটি একটি মন্তব্যপূর্ণ বা নিয়ম ভিত্তিক অ্যালগরিদম যা ডেটাসেট থেকে ফ্রিকোয়েন্ট আইটেমসেট (Frequent Itemsets) বের করে এবং তাদের মধ্যে Association Rules তৈরি করে। এই অ্যালগরিদমটি বিশেষভাবে ব্যবহৃত হয় প্রোডাক্ট সেলিং, মার্কেটিং কৌশল, এবং ক্রেতাদের আচরণ বিশ্লেষণ এর জন্য।


Frequent Itemsets:

Frequent Itemsets হল সেই সেট (সমষ্টি) বা গ্রুপ যা একটি ডেটাসেটের মধ্যে বারবার ঘটে। বিশেষত, মাইনিং বা বিশ্লেষণের সময়, আইটেমগুলি বারবার একত্রিত হয়ে কনজাম্পশন বা ক্রয় আচরণে সাধারণত উপস্থিত হয়।

ফ্রিকোয়েন্ট আইটেমসেট একটি বিশেষ আইটেম সেট (সাধারণত পণ্য) এর সমষ্টি যা ব্যবহারকারীরা একসাথে ক্রয় করতে পছন্দ করে এবং এটি একটি নির্দিষ্ট সমর্থন (Support) থ্রেশোল্ডের উপরে থাকতে হবে।

উদাহরণ:

ধরা যাক, একটি সুপারমার্কেট ডেটাসেটের মধ্যে আইটেমগুলি হলো:

  • I1I_1: ব্রেড
  • I2I_2: বাটার
  • I3I_3: জ্যাম
  • I4I_4: মাখন

এখন, Frequent Itemset হলো এমন আইটেম সেট যা একটি নির্দিষ্ট সমর্থন (support) থ্রেশোল্ডের উপরে। যেমন, যদি ব্রেড এবং বাটার 70%70\% ক্ষেত্রে একসাথে কেনা হয়, তবে {I1,I2}\{I_1, I_2\} একটি frequent itemset হতে পারে, যদি 70%70\% সমর্থন থ্রেশোল্ড নির্ধারণ করা হয়।


Apriori Algorithm:

Apriori Algorithm এমন একটি অ্যালগরিদম যা frequent itemsets বের করার জন্য কাজ করে এবং এই সেটগুলির উপর ভিত্তি করে association rules তৈরি করে। এটি একটি level-wise অ্যালগরিদম, যার মানে হলো এটি বারবার 1-itemset, 2-itemset, 3-itemset ইত্যাদি তৈরির মাধ্যমে ফ্রিকোয়েন্ট আইটেমসেট তৈরি করে। এরপর এটি নিয়ম তৈরি করতে পারে যা কিভাবে একসাথে আইটেমগুলি ক্রয় করা হয় তার ভিত্তিতে প্রেডিকশন দেয়।

Apriori Algorithm এর প্রধান পদক্ষেপ:

  1. ফ্রিকোয়েন্ট আইটেমসেটের প্রথম স্তর তৈরি করা: প্রথমে, একটি প্রাথমিক ডেটাসেট থেকে একক আইটেমসেট তৈরি করা হয় এবং সেগুলির জন্য support মান বের করা হয়।
  2. সমর্থন (Support) পরিমাপ: Support হল একটি মেট্রিক যা কোনো নির্দিষ্ট আইটেম বা আইটেমসেটের সঙ্গীতা পরিমাপ করে, অর্থাৎ কোন আইটেম কতবার ডেটাসেটে উপস্থিত হয়েছে। এটি সাধারণত নিচের সূত্রে পরিমাপ করা হয়:

    Support(A)=Frequency of itemset ATotal number of transactions\text{Support}(A) = \frac{\text{Frequency of itemset A}}{\text{Total number of transactions}}

  3. আইটেমসেট জেনারেশন এবং ফিল্টারিং: দ্বিতীয় স্তরে, প্রথম স্তরের আইটেমগুলির সকল সম্ভাব্য 2-itemsets তৈরি করা হয় এবং তাদের support পরীক্ষা করা হয়। এরপর, সেই আইটেমসেটগুলিকে নির্বাচন করা হয় যা নির্ধারিত সমর্থন থ্রেশোল্ডের উপরে থাকে।
  4. Association Rule Generation: যখন একটি ফ্রিকোয়েন্ট আইটেমসেট পাওয়া যায়, তখন association rule তৈরি করা হয়। উদাহরণস্বরূপ, যদি {A,B}\{A, B\} একটি ফ্রিকোয়েন্ট আইটেমসেট হয়, তাহলে নিম্নলিখিত নিয়মগুলি তৈরি হতে পারে:

    • ABA \Rightarrow B
    • BAB \Rightarrow A

    Confidence হল যে একটি নিয়মে যেকোনো আইটেম যদি উপস্থিত থাকে, তখন অন্য আইটেমটির উপস্থিতির সম্ভাবনা। এটি সাধারণত:

    Confidence(AB)=Support(AB)Support(A)\text{Confidence}(A \Rightarrow B) = \frac{\text{Support}(A \cup B)}{\text{Support}(A)}

  5. থ্রেশোল্ড সেটিং: কেবলমাত্র সেই নিয়মগুলি নির্বাচন করা হয় যার support এবং confidence থ্রেশোল্ড নির্দিষ্ট মানের উপরে থাকে।

Apriori Algorithm এর সুবিধা:

  1. সহজ এবং কার্যকরী: Apriori অ্যালগরিদম খুবই সহজ এবং শক্তিশালী, যা সম্পর্ক এবং আইটেমসেটগুলি বের করার জন্য কার্যকর।
  2. স্ট্রাকচারাল ডিজাইন: এতে একটি লেভেল-বাই-লেভেল অ্যালগরিদমিক পদ্ধতি ব্যবহার করা হয়, যা নিশ্চিত করে যে কোনও সঠিক ফ্রিকোয়েন্ট আইটেমসেট পাওয়া যাচ্ছে কিনা।
  3. বৃহৎ ডেটাসেটের জন্য কার্যকর: ডেটাসেটের আকার বড় হলেও এটি অনেকগুলি আইটেমসেট পরীক্ষা করে এবং সমর্থন এবং বিশ্বাসযোগ্যতার নির্দিষ্ট সীমার মধ্যে কাজ করে।

Apriori Algorithm এর সীমাবদ্ধতা:

  1. কম্পিউটেশনাল খরচ: Apriori অ্যালগরিদম ডেটাসেটের আকার বড় হলে বেশি কম্পিউটেশনাল খরচ সৃষ্টি করতে পারে, কারণ এটি সব আইটেমসেটের মধ্যে হিসাব করে।
  2. প্রথম স্তরের প্রক্রিয়া: প্রথম স্তরে অনেক কম্বিনেশন পরীক্ষা করতে হতে পারে, যা সময় সাপেক্ষ হতে পারে।
  3. সমর্থন সীমা: অনেক ক্ষেত্রেই বড় ডেটাসেটের জন্য একক আইটেমের সমর্থন থ্রেশোল্ড ছোট করা হয়, যা ফলস্বরূপ ভাল ফলাফল নাও দিতে পারে।

উপসংহার

Apriori Algorithm একটি অত্যন্ত শক্তিশালী এবং জনপ্রিয় অ্যালগরিদম যা association rule mining-এ ব্যবহৃত হয় এবং frequent itemsets বের করতে সহায়ক। এটি support এবং confidence থ্রেশোল্ডের ভিত্তিতে সম্পর্ক এবং নিয়ম তৈরি করতে সক্ষম। তবে, এর কিছু সীমাবদ্ধতা রয়েছে, যেমন কম্পিউটেশনাল খরচ, তবে এটি বৃহৎ ডেটাসেট বিশ্লেষণে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...